GLM e GEE

Modelos Lineares Generalizados e Equações de Estimação Generalizadas
Análise de Dados Ambientais

Luiz Diego Vidal Santos

Universidade Estadual de Feira de Santana (UEFS)

O QUE SÃO MODELOS GENERALIZADOS

O QUE SÃO MODELOS GENERALIZADOS

Generalized Linear Models (GLM) x Generalized Estimating Equations (GEE)

Diversas possibilidades de análises de dados em pesquisas científicas:

INTRODUÇÃO

As diferentes formas de análise de variância (ANOVA) são algumas das técnicas mais utilizadas em diversas áreas de pesquisa:

INTRODUÇÃO

Nos últimos anos, análises alternativas às ANOVAs têm ganhado espaço:

INTRODUÇÃO

Mas, afinal, o que são esses modelos generalizados?

HISTÓRICO

Mas, afinal, o que são esses modelos generalizados?

HISTÓRICO

HISTÓRICO

Mas, afinal, o que são esses modelos generalizados?

PROPOSTA

Os modelos generalizados propõem uma nova maneira de pensar os dados:

Os modelos generalizados propõem uma nova maneira de pensar os dados:

PROPOSTA

VIABILIDADE

Diversos softwares são capazes de rodar o GLM e o GEE:

APLICAÇÕES:

Dados transversais x dados longitudinais

INTRODUÇÃO

O GLM e o GEE apresentam diversas aplicações dependendo do delineamento:

O GLM e o GEE englobam diversas análises com diferentes distribuições:

Regressão linear (VD contínua);

Regressão logística (VD binária ou multinomial);

Regressão Poisson (VD contagem);

Regressão hierárquica (relação hierárquica entre variáveis);

Análise do tempo até um evento (sobrevida).

INTRODUÇÃO

Generalized Linear Models (GLM):

Independência das unidades de análise (sujeitos);

Um sujeito não influencia o outro (erros independentes).

DADOS TRANSVERSAIS

GLM:

DADOS TRANSVERSAIS

GLM:

DADOS TRANSVERSAIS

Generalized Estimating Equations (GEE):

Dependência da unidade de análise (mesmo sujeito ao longo do tempo);

Dados correlacionados (erros dependentes).

DADOS TRANSVERSAIS

GEE:

DADOS TRANSVERSAIS

GEE:

Tamanho amostral

DADOS TRANSVERSAIS

Por que usamos GLM e GEE nesses estudos e não ANOVAs ou regressões?

DADOS LONGITUDINAIS

VANTAGEM EM RELAÇÃO ÀS ANOVAS

Distribuições, matrizes de covariância e missing data

INTRODUÇÃO

A utilização das ANOVAs requer que alguns pressupostos sejam satisfeitos:

Quando esses pressupostos não são atendidos, algumas saídas incluem:

INTRODUÇÃO

Porém, não parece que estamos “forçando a barra” ao usar essas saídas?

INTRODUÇÃO

Os modelos generalizados possibilitam maior flexibilidade nas análises:

VANTAGENS

VANTAGENS

Os modelos generalizados possibilitam maior flexibilidade nas análises:

Distribuições de probabilidade da VD:

VANTAGENS

Matrizes de covariância:

VANTAGENS

Missing data:

Baseline

Pós-intervenção

Follow-Up 2

Follow-Up 1

VANTAGENS

Missing data:

VANTAGENS

VANTAGENS

VANTAGEM EM RELAÇÃO ÀS ANOVAS (cont.)

Variáveis contínuas

Como nosso fenômeno de interesse está distribuído na natureza?

INTRODUÇÃO

Provavelmente, você já ouviu falar na chamada distribuição normal:

Uma das distribuições mais utilizadas para descrever fenômenos naturais.

INTRODUÇÃO

A curva normal de Gauss é simétrica e baseia-se em dois parâmetros (média e desvio-padrão):

INTRODUÇÃO

Uma das maiores limitações de testes paramétricos é a suposição restrita da normalidade dos dados, mas nem todos os dados são normais…

INTRODUÇÃO

INTRODUÇÃO

DISTRIBUIÇÕES PARA VDS CONTÍNUAS

Algumas das mais comuns incluem:

Normal;

Gamma;

Tweedie (mista).

Gamma:

Distribuição assimétrica que aceita apenas valores positivos ( > 0);

Grande família de distribuições, que pode assumir diferentes formatos

(normal, exponencial, qui-quadrado, F, t, etc..).

https://seeing-theory.brown.edu/probability-distributions/index.html

DISTRIBUIÇÕES PARA VDS CONTÍNUAS

Tweedie:

Distribuição mista que combinas características contínuas e discretas;

Direito (jurimetria: indenização, pena).

DISTRIBUIÇÕES PARA VDS CONTÍNUAS

Como escolher?

DISTRIBUIÇÕES PARA VDS CONTÍNUAS

Como escolher?

DISTRIBUIÇÕES PARA VDS CONTÍNUAS

DISTRIBUIÇÕES DE PROBABILIDADE

Variáveis discretas

INTRODUÇÃO

DISTRIBUIÇÕES: VDS DISCRETAS

Algumas das mais comuns incluem:

Bernoulli;

Binomial;

Geométrica;

Binomial negativa;

Poisson.

Bernoulli:

Evento com duas possibilidade que ocorre uma vez;

Experimento binário;

Jogar uma moeda (cara ou coroa).

DISTRIBUIÇÕES: VDS DISCRETAS

Binomial:

Série de Bernoulli encadeada;

Experimentos binários e independentes (nº de tentativas; nº de sucessos);

Número de caras em 5 lançamentos de moeda (nº tentativas é fixo; nº de sucessos varia).

DISTRIBUIÇÕES: VDS DISCRETAS

Geométrica:

Quantas tentativas para obter o primeiro sucesso?;

Experimentos binários independentes;

Quantos lançamentos de moeda até a primeira cara? (nº tentativas varia).

DISTRIBUIÇÕES: VDS DISCRETAS

Binomial negativa:

Quantas tentativas para obter X sucessos? (generalização da geométrica);

Experimentos binários independentes;

Quantos lançamentos de moeda até 6 coroas? (nº tentativas varia; nº de sucessos fixo).

DISTRIBUIÇÕES: VDS DISCRETAS

DISTRIBUIÇÕES: VDS DISCRETAS

Poisson:

Variáveis de contagem (taxas);

Tempo (área) em que eventos independentes podem acontecer;

Número de pessoas que ficam doentes em uma semana (epidemiologia).

DISTRIBUIÇÕES: VDS DISCRETAS

Qual a “carinha” dessas diferentes distribuições?

https://seeing-theory.brown.edu/probability-distributions/index.html

DISTRIBUIÇÕES: VDS DISCRETAS

Como escolher?

FUNÇÕES DE LIGAÇÃO

Importância para interpretação dos resultados

INTRODUÇÃO

A flexibilidade dos modelos generalizados permitem a escolha de diferentes distribuições de probabilidade para a variável dependente de interesse:

INTRODUÇÃO

Além das diferentes distribuições, também existem diferentes funções de ligação que devem ser especificadas de acordo com seu modelo:

INTRODUÇÃO

Dependendo da função de ligação escolhida, os coeficientes de GLM e GEE podem ser descritos e interpretados de diferentes formas:

Regressão linear;

Regressão logística;

Regressão Poisson.

INTRODUÇÃO

FUNÇÕES DE LIGAÇÃO

Algumas das mais comuns incluem:

Identidade;

Logit;

Log.

A escolha adequada melhora a interpretabilidade dos resultados.

Identidade:

Comum em distribuições para VDs contínuas;

Interpretação como na regressão linear;

Coeficientes β como diferenças médias entre grupos (tamanho de efeito).

FUNÇÕES DE LIGAÇÃO

Logit:

Comum em distribuições para VDs discretas binárias;

Interpretação como na regressão logística;

Coeficientes Exp (β) como razões de chance (odds ratio).

FUNÇÕES DE LIGAÇÃO

Log:

Comum em distribuições para VDs discretas de contagem;

Interpretação como na regressão Poisson;

Coeficientes Exp (β) como razões de taxas (prevalência, incidência).

FUNÇÕES DE LIGAÇÃO

Como escolher?

FUNÇÕES DE LIGAÇÃO

MATRIZ DE COVARIÂNCIA

Principais tipos

INTRODUÇÃO

Desenhos longitudinais permitem diferentes observações ao longo do tempo:

Como são observações do mesmo sujeito, elas devem ser relacionadas…

TEMPO

INTRODUÇÃO

Mas, de que forma essa relação ocorre?

INTRODUÇÃO

As ANOVAs de medidas repetidas pressupõe a ‘esferacidade’:

As variâncias devem ser homogêneas ao longo do tempo;

Teste de Mauchly.

INTRODUÇÃO

INTRODUÇÃO

O GEE não requer o pressuposto da ‘esferacidade’:

A VD pode apresentar diferentes variações ao longo do tempo;

Escolha da matriz de covariância adequada para o desenho.

MATRIZES DE COVARIÂNCIA

Algumas das mais comuns incluem:

Intercambiável;

Auto-regressiva de ordem 1;

M-dependente;

Independente;

Não estruturada.

Matriz intercambiável ou permutável:

Efeito do tempo é constante sobre a VD (covariâncias homogêneas);

Conhecida como “exchangeable” ou “compound symmetry structure”.

MATRIZES DE COVARIÂNCIA

Matriz auto-regressiva de ordem 1 ou AR (1):

Dependência temporal;

O que acontece em “t” depende necessariamente do que aconteceu em “t-1”.

MATRIZES DE COVARIÂNCIA

Matriz M-dependente:

Medidas consecutivas apresentam covariâncias comuns, pares de medidas separadas por uma terceira medida também;

Num desenho de 5 tempos: 1 e 2, 2 e 3, 3 e 4 e 4 e 5 apresentam a mesma

covariância, assim como 1 e 3, 2 e 4, 3 e 5 ou 1 e 4 e 2 e 5.

MATRIZES DE COVARIÂNCIA

Matriz independente:

Medidas repetidas não são correlacionadas;

Lembra a ideia dos modelos transversais.

MATRIZES DE COVARIÂNCIA

Obrigado!

Luiz Diego Vidal Santos

Universidade Estadual de Feira de Santana (UEFS)